强化学习(RL)提供了一种通用方法,用于建模和培训AI代理,包括人类互动方案。在本文中,我们提出了Sharpie(hared Human-a i r einformention学习p latform for Iteractive e xperiments),以满足对一般框架的需求,以支持RL代理和人类的实验。它的模型设计由用于RL环境和算法库的多功能包装器组成,这是一个面向参与者的Web Interface,Lotogging Utilities,在流行云和参与者招聘平台上的部署。它使研究人员能够研究与人与RL药物之间的反应有关的各种研究问题,包括与交互式奖励规范和学习的研究,从人类的反馈,行动授权,偏好,用户模型,用户模型和人类团队中学习。该平台基于人类RL相互作用的通用界面,旨在标准化人类文本中RL的研究领域。
![arxiv:2501.19245v2 [cs.ai] 2025年2月3日PDF文件第1页](/bimg/7/7187c2c665ba343448da17332d6dc9ca25aaff3f.webp)
![arxiv:2501.19245v2 [cs.ai] 2025年2月3日PDF文件第2页](/bimg/e/e980050d974bb3b3de4e846ad0920871f22f757c.webp)
![arxiv:2501.19245v2 [cs.ai] 2025年2月3日PDF文件第3页](/bimg/7/75f03f2d7accfa93d7e7ea6fea3d289a496ffc2b.webp)
![arxiv:2501.19245v2 [cs.ai] 2025年2月3日PDF文件第4页](/bimg/2/2cc83b94177a6e9268b4bfd180c9679e588ffd25.webp)
![arxiv:2501.19245v2 [cs.ai] 2025年2月3日PDF文件第5页](/bimg/1/125bccc7fef89d3e0bab5489f22c88eff8690258.webp)
